13 Mars 2024

Analyse bioinformatique des données moléculaires à haut débit en Oncologie

Contexte général des analyses OMIQUES

Analyse de variants structuraux par NGS (DNA-seq)

Analyse du transcriptome par NGS (RNA-seq)

Analyse fonctionnelle des gènes (enrichissement)

Je me présente

Qu’est ce que la bioinformatique ?

Qu’évoque pour vous le terme de “Bioinformatique” ?

Qu’est ce que la bioinformatique ?

  • Apparition en 1970: B Hesper et P Hogeweg, « Bioinformatica: een werkconcept », Kameleon, vol. 1, no 6, 1970, p. 28–29

La bio-informatique est constituée par l’ensemble des concepts et des techniques nécessaires à l’interprétation informatique de l’information biologique. Plusieurs champs d’application ou sous-disciplines de la bio-informatique se sont constitués (Wikipedia):

  • La bio-informatique des séquences
  • La bio-informatique structurale
  • La bio informatique des réseaux
  • La bio-informatique statistique et des populations

Projet du séquençage du Génome Humain

  • Idée lancée en 1985 par 3 scientifiques, Renatto Dulbecco, Robert Sinsheimer (directeur de UCSC) et Charles DeLisi, qui financera le projet (Directeur dept. de biologie du Département de l’Energie US)
  • séquençage lancé en 1988 par le National Research Council. En suisse est créé HUGO (Human Genome Organisation) pour la coordination.
  • En 1998, Craig Venter, crée Celera Genomics avec pour objectif le séquençage en 3 ans et le brevetage du génome par séquençage Shotgun.
  • En 2000, la complétion du séquençage est annoncé pour le Consortium et Celera Genomics (match nul) par le président B. Clinton. Coût: $3B.
  • Celera Genomics avouera avoir utilisé les données du Consortium pour son propre assemblage, mais reproduira un séquençage de Novo 3 ans plus tard…
  • Publication des séquences brutes en 2001 et des séquences finales en 2004.
  • 1995: Accord des Bermudes (toute séquence est rendue librement accessible).

Le NGS

Le séquençage par Shotgun est la méthode mise au point par Sanger pour le séquençage de génomes de virus. La méthode est popularisée par Craig Venter.

Le NGS désigne l’ensemble des méthodes apparues en 2005 pour la production de millions de séquences (Le pyroséquençage, qui a permis de concevoir le séquenceur Roche 454).

Principe du séquençage Shotgun

Analyse de données OMIQUES en oncologie

Que sont pour vous les données OMIQUES ?

Analyse de données OMIQUES en oncologie

  • Génomique:

    • DNA-seq: recherche de variants structuraux)
    • ChIP-seq: recherche de sites d’interactions proteines-ADN (Exemple Histones, TFs).
    • ATAC-seq: recherche des sites accessibles à la chromatine.
  • Transcriptomique:

    • Bulk: RNA-seq
    • Analyse en cellule Unique: scRNA-seq
  • Protéomique: Spectrométrie de masse

Le DNA-seq et son application en oncologie.

Applications principales

  • Recherche: Analyse de panels larges ou d’exomes (complet) à visée de découverte.
  • Clinique: analyse de panels restreints à visée diagnostique.

Interêt du NGS en Oncologie

  • Permet l’étude de mutations constitutionnelles et somatiques à faible pourcentages.

  • Possibilité de traiter des projets ciblés ou des panels plus larges, voire exome complet.

  • Un grand nombre de patients peuvent être analysés simultanément et rapidement.

  • L’analyse bioinformatique devient partie intégrante du processus de traitement.

Industrialisation du séquençage

Principe général du NGS

Echelles en fonction de l’application

Détection de variants structuraux par NGS

Détection de variants structuraux par NGS

Quelles seraient les étapes bioinformatque d’un pipeline de détection de variants ?

Détection de variants structuraux par NGS

But: recherche de mutations dans des gènes d’interêt pour poser un diagnostique sur un patient.

Etapes de l’analyse bioinformatique:

  • Contrôle Qualité sur les données brutes (Obligatoire!)
  • Alignement des reads sur le génome de référence
    • Alignement principal.
    • Ré-alignement local pour la recherche d’Indels.
  • Appel de variants
  • Annotation et production d’un fichier VCF et d’un compte-rendu

Fichiers issus du séquenceur (Fichiers FASTQ)

Ils contiennent les reads: petite séquence d’un fragment d’ADN de longueurs plus ou mons fixe.

  • Single-end
    • Chaque read est indépendant
  • Paired-end
    • Le séquençage est fait par chaque extrémité de chaque brin. Dans ce cas, les reads sont organisés par paires
@HWI-ST865:166:D0C4KACXX:2:1101:1042:1954 1:Y:0:
CNANAAATNAANNNNGNNNNNNNNNANNNNNAAANNNTNNNNNNNNNTNNTGNNNNTTGTTTNNTTGTGGGTTTCTCTGTCCCCN
+
#####################################################################################
@HWI-ST865:166:D0C4KACXX:2:1101:1241:1970 1:N:0:
CCAGCGACACTTGCAGCTTAGGGGCAAGAGGCTCCCACAACACCCTGTGCGATCGGAAGAGCGGTTCAGCAGGGATGCCGCGGCC
+
GFFIGIIIFGEHHIJJJIIGGGHIIBD=BFG?EDECC@FGCHC?BCCBB)53(;;B;?8299?######################

Mesure et encodage qualité: le Phred

Quelques définitions:

  • Valeur de qualité exprimés en QPhred
  • QPhred = probabilité p d’erreur de mauvaise identification de la base
  • \(QPhred = -10.log_{10}(p)\)

Exemple:

  • Q20 correspond à une probabilité d’erreur de 1%
  • Q30 correspond à une probabilité d’erreur de 0,1%

Contrôle Qualité par FastQC

Détection de variants structuraux par NGS: Départ

Détection de variants structuraux par NGS: Alignement

Détection de variants structuraux par NGS: Détection

Détection de variants structuraux par NGS: Type/VAF

Détection de variants structuraux par NGS: Résumé

But: recherche de mutations dans des gènes d’interêt pour poser un diagnostique sur un patient.

Etapes de l’analyse bioinformatique:

  • Contrôle Qualité sur les données brutes (Obligatoire!)
  • Alignement des reads sur le génome de référence
  • Appel de variants (Recherche des SNP et INDELS)
  • Annotation et production d’un fichier VCF et d’un compte-rendu
  • \(VAF= Variant AlleleFrequency = \frac{N (Reads Mutés)}{Profondeur}\)

Production des VCF (Variant Calling Files)

Visualisation sous IGV

Quelques définitions: les Reads

Quelques définitions: Couverture et profondeur

Quelques définitions: le Phred

Analyse de panels: Exemple du panel INCa

Du prélèvement au compte-rendu scientifique

Le compte-rendu est fait sur les gènes prescrits (dans le cadre du diagnostique)

Rappel des étapes bioinformatiques

  • Contrôle Qualité (FASTQC)
  • Alignement sur le génome de référence (BWA ou SubRead)
  • Trimming des séquences adptatrices (Triommomatic)
  • Réalignement pour INDELS (GATK)
  • Détection des mutations (VarScan ou SNPDetect)
  • Annotation des variants (Annovar)
  • Visualisation des données (Read, SNPs) (IGV - Integrative Genomics Viewer)

Rappels sur les extensions de fichiers

  • Fichiers de séquences brutes: .Fastq (Compressé en zip: .Fastq.gz)
  • Fichiers de séquences alignées .BAM (Binaire - déjà compressé)
  • Index de fichiers de séquences alignées .BAI
  • Génome complet au format FASTA: .fa
  • Fichiers listant les mutations/Indels: .VCF ou .txt

Conclusion de cette partie

  • L’utilisation du NGS en oncologie permet d’augmenter le débit d’analyse.

  • L’analyse bioinformatique fait partie intégrante du processus global de détection des variants.

  • A terme: disparition du séquençage ciblé type Sanger. Celui-ci est actuellement encore utilisé pour la confirmation des résultats.

  • Perspectives: vers la plateforme France Médecine Génomique 2025.

  • Voir le projet des 100,000 génomes du NHS.

Autre application: Analyses NGS du Transcriptome en oncologie

Analyse RNA-Seq - principe

Analyse de l’expression des gènes = le Transcriptome. C’est une grandeur dynamique.

  • Technologie à haut débit précédente: les Puces à ADN
  • Technologie basée sur le NGS: Le RNA-Seq. Beaucoup d’outils sont communs à ces technologies

Le NGS appliqué à l’analyse du transcriptome permet:

  • Une Meilleure concordance entre plateformes
  • Forte sensibilité et meilleure dynamique
  • Toutes espèces, toutes régions transcrites
  • Une variété d’applications

Mais…

  • Complexité et coût calculatoire accrus = pipeline bioinformatique plus complexe.

Pipeline bioinformatique RNA-seq

Que seraient pour vous les étapes d’analyse bioinformatique en RNA-seq ?

Pipeline bioinformatique RNA-seq

  • séquençage
  • Contrôle qualité
  • Alignement sur génome de référence
  • Quantification des valeurs d’expression (comptage) et normalisation
  • Analyse différentielle entre conditions expérimentales
  • Visualisation des données (“diagrammes de chaleur”, “volcano plots”).
  • Analyse fonctionnelle des gènes (“Gene Set Enrichment Analysis”)

L’analyse bioinformatique fait partie intégrante du processus de traitement.

Plusieurs questions possibles sur une analyse RNA-Seq:

  • Assemblage de transcriptome de novo
  • Analyse de l’épissage alternatif
  • Découverte des gènes de fusion
  • Analyse différentielle: C’est cette application que nous allons décrire ici.

Analyse différentielle

L’analyse différentielle consiste à identifier les gènes dont l’expression est significativement différente entre deux conditions expérimentales.

Exemple:

  • Différence entre 2 types cellulaires
  • Comparaison Tumeur/sain
  • Comparaison entre traitements

Alignement et comptage des séquences: Départ

Alignement et comptage des séquences: Alignement

Alignement et comptage des séquences: Comptage Exons

Alignement et comptage des séquences: Comptage Gènes

Alignement sur le génome de référence par STAR

Analyse différentielle

L’objectif est d’établir quels sont les gènes différentiellement exprimés entre plusieurs conditions expérimentales, par exemple, un contrôle et un traitement. C’est une analyse supervisée.

Pour cela, un test statistique est utilisé. Rappel: un test statistique est la vérification d’une hypothèse nulle H0.

Alignement (Mapping) sur génome de référence

Analyse de séquence avec IGV

Quelques définitions: Couverture et profondeur

Annotation du génome de référence

Les annotations du génome de référence sont disponibles sous forme de fichiers GFF/GTFou BED auprès de Ensembl (BioMart - https://www.ensembl.org/info/data/ftp/index.html) ou NCBI (https://www.ncbi.nlm.nih.gov/refseq/).

#!genome-build GRCh38.p13
#!genome-version GRCh38
#!genome-date 2013-12
#!genome-build-accession NCBI:GCA_000001405.28
#!genebuild-last-updated 2019-06
1   havana  gene    11869   14409   .   +   .   gene_id "ENSG00000223972"; gene_version "5"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene";
1   havana  transcript  11869   14409   .   +   .   gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; transcript_name "DDX11L1-202"; transcript_source "havana"; transcript_biotype "lncRNA"; tag "basic"; transcript_support_level "1";

Comptage

  • Sous l’hypothèse que le nombre de reads venant d’un certain gène est proportionnel à l’abondance de son ARN dans la cellule, on veut compter les reads venant de chaque gène, transcrit ou exon du génome.

  • Il est possible de faire un script ‘maison’ mais il existe maintenant un grand nombre de programmes pour faire cette fonction, notamment featureCount de la suite logicielle SubRead.

  • Les localisations génomiques des transcripts sont données en entrée du programme de comptage, permettant d’assigner les comptages à chaque transcrit.

Normalisation

Problème: Le nombre de reads varie par échantillon. Il peut aussi y avoir des artéfact dus à la PCR. Il faut donc Normaliser pour rendre les échantillons comparables.

  • RPKM: Reads Per Kilobase per Million

\(RPKM(G) = \frac{read(G)}{[\sum Read].longeur(G)}.{10}^{6}.{10}^{3}\)

Variante: FPKM pour le Paired-end.

Cette méthode est très utilisée MAIS:

Elle est inadaptée à la comparaison entre échantillons car on ne peut pas comparer des pourcentages!

Normalisation TMM

  • TMM - Trimmed mean of M-values.

C’est une des normalisations recommandées.

Au lieu de faire une mise à l’échelle propre à une librairie, TMM calcul un facteur de normalisation global en assumant que la majorité des gènes n’est pas DE et en ne tenant pas compte des valeurs extrêmes.

Le facteur est également fonction de la variance d’expression.

Normalisation

La Normalisaion type TMM ou autre n’est nécessaire que pour la visualisation ou l’exploration globale des données de comptage.

Les logiciels d’analyse différentielles (EdgeR et DESeq2) ont leur propre normalisation intégrée à la méthode et il n’y a pas besoin d’appliquer de normalisation aux comptages avant un appel à l’une de ces méthodes.

QC (Quality Control)

Comparaison de la taille de librairies

QC (Quality Control)

Comparaison des distributions avant normalisation TMM

QC (Quality Control)

Comparaison des distributions après normalisation TMM

QC (Quality Control)

Comparaison des distributions avant normalisation TMM

QC (Quality Control)

Comparaison des distributions après normalisation TMM

QC (Quality Control)

MA-Plot: log(Ratio) vs average

Visualisation des données ?

  • Comment visualiser les Profils d’expression ?

  • Comment détecter les gènes différentiellement exprimés ?

Visualisation des profils d’expression: diagramme thermique

Diagramme thermique (Sans normalisation d’affichage)

Analyse EdgeR avec statistiques

Un test statistique sur les profils d’expression permet de détecter les gènes différentiellement exprimés.

Diagramme en volcan

  • \(|LogFC|>1.5, pval<10^{-3}\)

Diagramme en volcan

  • \(|LogFC|>2.0, pval<10^{-5}\)

Analyse fonctionnelle des gènes

Analyse fonctionnelle par enrichissement: principe (1)

Analyse fonctionnelle par enrichissement: principe (2)

Comment quantifier l’enrichissement ?

Analyse fonctionnelle par enrichissement: principe (3)

Exemple de calcul d’enrichissement: Je travaille avec

  • 30000 gènes dont 2000 liés au Cycle Cellulaire (GO:0007049).
  • J’ai identifié un cluster de 300 gènes.
  • Ce cluster contient 100 gènes liés aux Cycle cellulaire.

Comment calculer l’enrichissement ?

\(E=\frac{100/300}{2000/30000} = 5\)

-> Il y a Enrichissement -> Validation statistique.

Analyse fonctionnelle par enrichissement GO

Elles sont basées sur deux composantes:

  • Elles utilisent une Ontologie (vocabulaire contrôlé et stable mis en place par le Gene Ontology Consortium ou autre (Kyoto Encyclopedia of Genes and Genomes, KEGG)).
  • D’où l’utilisation fréquente du raccourcis (Enrichissement GO)
  • Elles sont basées sur un Enrichissement Fonctionnel associé à une validation statistique par Test Hypergéométrique.

Qu’est ce qu’une ontologie ?

Une ontologie est l’ensemble structuré des termes et concepts représentant le sens d’un champ d’informations, que ce soit par les métadonnées d’un espace de noms, ou les éléments d’un domaine de connaissances.

Application au génome: Gene Ontology (Gene Ontology Consortiumhttp://www.amigo.org). 3 ontologies ont été définies.

  • Biological Process
  • Cellular Component
  • Molecular Function

Graphe GO

Exemple d’annotation

Gène RPL35A

Annotations par un vocabulaire contrôlé.

Test d’enrichissement GO

Une catégorie de gènes regroupe n gènes sur le total de N présents sur la puce. La fréquence de départ de cette catégorie est F = n/N.

Ayant obtenu k gènes significativement exprimés ou sous-exprimés, dont p appartiennent à la catégorie C, la fréquence de la catégorie C dans ces gènes est f = k/p.

L’enrichissement est défini comme f/F.

Le test d’enrichissement doit répondre à la question: L’enrichissement est-il statistiquement significatif par rapport à un tirage au hasard? On le fait par Test hypergéométrique.

Exemple de résultat

Banques de données publiques NCBI

Il s’agit de dépôts de données liées à des publications répondant à des standards minimum de conservation et de reproducibilité de l’information, et contenant des données brutes de puces à ADN et de NGS.

L’information stockée permet la reproductibilité de l’expérience Leur usage est exigé pour publication (Numéro d’accession).

Dépôts spécialisés:

Bases d’annotations utiles

Autres services NCBI

PubMed:

http://www.ncbi.nlm.nih.gov/pubmed

  • Recherches par auteur, années, titre, contenu du résumé
  • Recherche par publications en lien
  • Possibilité d’ouvrir un compte utilisateur NCBI (Recherches favorites, Recherches automatisées)
  • Un grand nombre de publications sont accessibles de façon gratuite (PubMed Central)

Petit Quizz

  • En analyse NGS, la bioinformatique et l’infrastructure bioinformatique ne sont que peu ou pas importantes face au séquençage lui-même: (Vrai/Faux)

  • Remettre dans l’ordre les phases d’analyses NGS suivantes:

    • Alignement
    • Détection des mutations et Production des VCFs
    • Visualisation
    • Réalignement pour recherche d’INDELS
    • Contrôle Qualité
  • Faire correspondre les logiciels suivants à ces différentes étapes:

    • BWA
    • GATK
    • IGV
    • Varscan
    • FastQC

Merci de votre attention !

Copyright